智库 信息 组 织 策略 及 其 在 大 数据 环境 下 的 挑战 * 
uc NES 
国 科 学 院 兰 州 文献 情报 中 心 兰州 730000 
2 中 国 科 学 院 大 学 北京 100049 


= 


摘要 : [目的 /意义 ] 高 水 平 的 新 型 智库 离 不 开 高 水 平 的 信息 支持 机 制 ， 大 数据 时 
代 背 景 下 传统 的 智库 信息 组 织 机 制 已 无 法 适应 当前 的 数据 特征 及 决策 要 求 , 构建 
支持 决策 过 程 的 知识 库 已 成 为 智库 发 展 的 必然 趋势 。[ 方 法 /过 程 ] 本文 选取 《 全 
球 智库 报告 2016》 中 具有 参考 价值 的 国外 智库 机 构 作 为 研究 对 象 ， 应 用 文献 调 
研 法 和 案例 分 析 法 总 结 归纳 了 目前 智库 常见 的 信息 组 织 方式 , 分 析 了 大 数据 下 数 
据 价 值 链 及 其 对 组 织 环 节 的 要 求 , 并 据 此 提出 智库 知识 库 构建 的 必要 性 。[ 结 果 / 
结论 ] 最 终 提 出 一 个 通用 的 面向 决策 过 程 的 智库 知识 库 框 架 ， 并 采用 语义 本 体 方 
法 构建 了 知识 库 内 部 的 知识 组 织 模型 , 以 期 为 智库 在 大 数据 下 逐渐 实现 半自动 到 
自动 化 的 决策 研究 过 程 提供 参考 借鉴 。 
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1 引言 

智库 是 公共 政策 的 研究 分 析 和 参与 机 构 , 它们 针对 国内 、 国 际 问题 开展 政策 
导向 性 的 研究 、 分 析 和 咨询 ， 以 使 得 政策 制定 者 和 公众 能 够 依据 可 靠 的 信息 进行 
决策 "。 其 主要 作用 是 为 决策 制定 者 提供 及 时 、 全 面 、 准 确 的 支持 信息 ， 支 持 信 
息 的 范围 、 数 量 、 质 量 、 服 务 内 容 、 服 务 方式 等 都 将 直接 影响 到 决策 制定 的 效果 
““， 因 此 拥有 完善 的 信息 支持 机 制 是 智库 产生 高 质量 决策 咨询 成 果 的 重要 保障 。 

大 数据 时 代 信 息 呈 现 出 体 量 巨 大 、 形 式 繁多 、 更 新 速度 快 及 价值 密度 低 的 
AV 数据 特征 ， 在 这 种 数据 爆炸 的 形势 下 ， 任 何 研究 过 程 都 呈现 出 一 种 数据 驱 
动 的 趋势 ， 如 何 从 海量 信息 中 及 时 发 现 、 提 取 有 价值 的 知识 为 自己 所 用 , 将 成 为 
影响 智库 决策 研究 过 程 及 产 出 效率 的 关键 。 

大 数据 驱动 下 的 智库 决策 研究 必须 解决 以 下 两 个 问题 : 一 是 如 何 构建 一 个 统 
一 的 数据 模型 , 使 得 任何 大 数据 资源 都 能 够 通过 该 数据 模型 的 加 工 处 理 最 终 成 为 
可 支持 决策 研究 的 智能 数据 , 逐渐 实现 半自动 到 自动 化 的 决策 研究 过 程 。 二 是 如 
何 针对 决策 研究 过 程 对 各 种 来 源 各 种 形式 的 相关 信息 进行 语义 化 处 理 , 加 强 数据 
之 间 的 关联 以 提升 知识 发 现 的 能 力 , 为 决策 者 提供 更 有 价值 的 政策 参考 信息 。 因 
此 , 本 文 将 围绕 大 数据 分 析 能 力 需 求 及 智库 决策 研究 过 程 尝试 构建 支持 多 源 异 构 
的 数据 集成 框架 , 为 语义 化 地 建造 支持 大 数据 情报 处 理 和 分 析 的 智能 数据 集 提供 
统一 的 概念 模型 。 


2 智库 信息 组 织 机 制 现状 研究 
智库 如 何 对 数据 内 容 进行 组 织 加工 将 直接 影响 到 研究 人 员 与 情报 专家 对 信 


轧 资 源 的 利用 效率 ,科学 合理 的 组 织 方式 不 仅 能 提高 数据 存 取 效率 , 更 有 助 于 挖 
掘 数 据 中 的 潜在 价值 信息 ， 产 生 增 值 效 应 。 
2.1 国外 智库 信息 组 织 机 制 发 展现 状 
现代 意义 上 的 智库 最 早 形成 于 二 战 时 期 的 西方 国家 , 相 比 我 国 , 西方 国家 无 
论 在 智库 研究 领域 还 是 智库 自身 建设 都 已 发 展 的 相对 完善 , 选取 西方 有 影响 力 的 
智库 作为 研究 对 象 将 更 具 代表 性 。 本 文 依据 宾 大 《全 球 智库 报告 2016》 的 综合 
排名 及 各 项 领域 排名 , 选取 了 排名 靠 前 的 十 余 家 具有 代表 性 的 国外 智库 作为 研究 
MR MWA 1)， 通 过 对 其 官方 网 站 上 信息 资源 的 展示 方式 以 及 可 获取 的 各 种 类 
型 智库 产品 的 调研 ， 对 其 信息 组 织 策略 进行 了 分 析 。 
de 1 调研 涉及 的 国外 智库 
Table 1 Foreign Think Tanks involved in the research 


智库 名 称 所 属国 家 

布 勒 哲 尔 国际 经 济 研究 所 (Bruegel) 比利时 
斯 德 哥 尔 摩 国际 和 平 研究 所 (SIPRI) 瑞 
世界 资源 研究 所 (WRI) 关 
卡 内 基 国 际 和 平 基金 会 (CEIP) 美 
兰 德 公司 (RAND) 美 
美国 中 央 情 报 局 (CIA) 关 
德国 国际 与 安全 事务 研究 所 (SWP) 德 


胡 佛 研究 所 (HOOVER Institution) 


布 鲁 金 斯 学 会 (Brookings Institution) 美 
卡 托 研 究 所 (Cato Institute) X 
查 塔 姆 研究 所 (Chatham House) po 
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马 普 学 会 (Max Planck Society) 
本 国际 问题 研究 所 CJIIAD 


IH 


通过 调研 比较 与 分 析 ,， 归 纳 了 西方 智库 机 构 常 见 的 信息 搜集 及 组 织 策略 〈 见 
1)， 总 结 了 当前 西方 智库 信息 支持 机 制 的 发 展现 状 。 在 智库 的 信息 搜集 策略 
P, 主要 以 需要 较 多 依靠 人 工 参与 的 手动 采集 和 半自动 采集 为 主 ， 其 中 搜集 公开 
数据 以 其 可 操作 性 较 强 、 数 据 范围 广 、 相 对 成 本 低 等 特点 成 为 智库 最 常用 的 信息 
搜集 方式 之 一 , 几乎 所 有 上 述 智库 都 将 通过 互联 网 获取 公开 数据 作为 数据 搜集 的 
最 常规 途径 。 此 外 因 智 库 研究 的 实时 性 和 新 颖 性 ,智库 经 常 对 所 需 数据 有 特殊 要 
求 或 涉及 到 诸如 战争 形势 、 行 为 科学 、 药 物 病 理 等 特定 项 目 , 没有 完全 适用 的 数 
据 或 先前 数据 参考 价值 不 大 , 因此 智库 研究 人 员 还 需 通过 直接 生产 创造 途径 作为 
对 间接 搜集 获取 途径 的 补充 , 其 中 文献 调查 法 因 其 低 成 本 且 易 开展 成 为 使 用 频率 
最 高 的 直接 获取 数据 方式 , 例如 美国 布 鲁 金 斯 学 会 、 胡 佛 研究 所 、 卡 内 基 国 际 和 
平 基金 会 等 老牌 智库 在 传统 调研 运用 中 都 是 最 典型 的 代表 。 当然 , 在 调查 研究 过 
程 中 智库 专家 经 常 不 拘泥 于 某 种 特定 方法 ,而 是 相互 交错 、 灵 活 运用 。 依 据 内 容 
的 组 织 形式 ,搜集 到 的 信息 资源 可 被 组 织 为 数据 库 、 信 息 检索 系统 、 知 识 库 三 种 
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图 1 国外 智库 信息 支持 策略 


Figure 1 Information support strategies of foreign think tanks 


2.1.1 数据 库 (数据 集 ) 

对 于 智库 通过 直接 或 间接 途径 搜集 到 的 数据 , 组 织 方式 之 一 就 是 将 其 结构 化 
为 数据 库 或 数据 集 ， 这 种 结构 化 数据 形式 的 优点 是 便于 管理 、 共 享 性 高 、 元 余 度 
低 、 容 易 扩充 。 

布 勒 哲 尔 国际 经 济 研究 所 (Bruegel) 是 一 家 专注 于 国际 经 济 政策 研究 的 智 
RE, 其 将 关于 政策 经 济 的 7 个 专业 数据 集 对 外 开放 ”， 包 括 〈1) 全 球 及 地 区 基 
JERR; (2) 欧元 区 货币 总 量 Divisia fee; (3) 178 个 国家 的 实际 有 效 汇率 ; 
(4) 全 球 经 济 下 的 欧洲 企业 : 外 部 竞争 下 的 内 部 政策 ; (5) 持 有 的 主权 债券 ; 
(6) 欧元 体系 流动 性 ;， (7) 在 PATSTAT 应 用 程序 上 基于 回归 的 记录 链接 。 斯 德 
哥 尔 摩 国 际 和 平 研究 所 (SIPRI) 以 其 对 全 球 安全 问题 权威 性 的 评估 享誉 世界 ， 
SIPRI 所 有 研究 的 根据 和 来 源 均 完全 开放 ， 因 此 其 研究 成 果 成 为 国际 政治 家 、 研 
究 人 员 及 媒体 人 员 经 常 使 用 的 权威 性 资料 来 源 .SIPRI 拥有 4 个 专业 数据 库 : (1) 
多 边 和 平行 动 数 据 库 ; (2) 军费 开 文 数据 库 ; (3) 武器 转让 数据 库 ; (4) 军需 工 
业 数 据 库 。 此 外 ，SIPRI 还 全 面 掌 握 了 关于 军备 控制 和 裁军 的 数据 集 ”， 包 括 军 
火 禁 运 报告 、 国 家 军火 报告 、 全 球 军 火 贸易 价值 报告 等 等 ， 这 些 专 业 数 据 库 对 
SIPRI 的 研究 活动 提供 了 强 有 力 的 信息 支持 。 


作 期 刊 


2. 1. 2 信息 检索 系统 

一 个 机 构 信息 检索 系统 的 完善 程度 也 可 以 直接 反映 出 其 信息 组 织 的 好 坏 , 对 
于 智库 来 说 ， 强 大 的 检索 系统 不 仅 能 从 内 部 为 研究 专家 提供 高 效率 的 数据 支持 ， 
同时 为 用 户 快 速 准 确 地 获取 所 需 信 息 提供 了 便利 。 

卡 内 基 国 际 和 平 基金 会 提供 了 简洁 易 用 的 站 内 检索 系统 ,用户 可 选择 精确 匹 
配 或 任意 匹配 的 方式 对 题名 、 作 者 名 或 全 文 进行 检索 , 检索 结果 可 通过 文档 类 型 、 
发 表 年 份 、 地区、 主题 、 项 目 进一步 科 选 ， 并 可 按照 日 期 或 相关 度 对 结果 进行 排 
序 。 兰 德 公司 的 检索 系统 功能 相对 完善 ， 用 户 可 以 通过 关键 词 匹 配 、 额 外 属性 、 
文档 特征 等 多 种 检索 条 件 进 行 限定 ， 额 外 属性 包括 页 面 标题 、 所 属 兰 德 部 门 、 内 
容 类 型 、 起 始 日 期 等 ， 文 档 特 征 涵盖 了 题名 、 作 者 、 主 题 、ISBN 等 用 以 快速 定 
位 到 相关 资源 。 美国 中 央 情 报 局 (CIA) 作为 美国 乃至 世界 著名 的 情报 机 构 之 一 ， 
力求 对 海量 情报 进行 科学 管理 使 其 效果 得 到 最 大 程度 发 挥 , 这 也 令 CIA 成 为 情报 
机 构 中 进行 信息 资源 管理 与 增值 的 典范 。CIA 的 解密 档案 检索 系统 在 对 档案 材料 
进行 数字 化 保存 时 采用 了 元 数据 方法 〈 见 表 2)， 统 一 的 元 数据 标准 将 海量 信息 
资源 进行 科学 归 类 ， 同 时 能 够 将 文本 、 音 视频 等 不 同类 型 的 媒介 资源 进行 有 机 融 
合 ， 使 其 在 同一 个 存 取 体系 内 进行 统一 检索 ， 极 大 提高 了 信息 利用 效率 。 


表 2 CIA 解密 文档 检索 系统 元 数据 
Table 2 Metadata of CIA decrypted document retrieval System 
CIA 解密 档案 检索 系统 中 使 用 的 10 种 元 数据 
文件 类 型 Document Type 专 藏 Collection 
文件 编号 Document Number 公开 决定 Release Decision 
文件 页 数 Document Page Count 原始 密级 Original Classification 
文件 附件 File Attachment 序列 号 Sequence Number 
案件 编号 Case Number 出 版 日 期 Publication Date 


2.1. 3 知识 库 

在 信息 环境 中 知识 库 (knowledge repository) 可 以 被 定义 为 一 个 组 织 围绕 
特定 应 用 目的 (如 支持 科研 、 教 育 或 管理 过 程 等 ) 建立 的 知识 集合 。 一 般 地 ， 知 
识 库 有 两 种 基本 的 类 型 领域 /专题 知识 库 和 机 构 知 识 库 。 前 者 收集 、 组 织 和 传 
播 特 定 学 科 领 域 或 主题 的 知识 内 容 , 后 者 主要 提供 对 一 个 机 构 产 出 的 知识 进行 保 
存 和 传播 管理 的 服务 。 知 识 库 作 为 一 种 存储 、 组 织 和 管理 数字 知识 的 机 制 ， 在 科 
研 领 域 已 经 有 着 较为 广泛 的 应 用 , 然而 在 智库 等 决策 咨询 机 构 中 的 应 用 还 尚 不 成 
PA, 相当 一 部 分 智库 由 于 资金 、 资 源 等 原因 或 者 还 没有 意识 构建 智库 内 部 的 知识 
库 ， 仍 停留 在 信息 “存储 库 ” 的 阶段 。 

本 文 结合 之 前 已 有 的 研究 ”"， 通 过 调研 从 馆藏 建设 、 情 报 搜集 、 技 术 支 持 三 
个 方面 对 比分 析 了 美国 兰 德 公司 (RAND〉 和 德国 国际 和 安全 事务 研究 所 (SWP) 


在 知识 库 建设 过 程 中 的 情况 ( 见 表 3)， 通 过 分 析 可 以 看 出 ，RAND 和 SWP 都 非常 
重视 对 信息 资源 的 建设 ,内 部 馆藏 丰富 ， 数 据 库 内 容 涉 及 广泛 。 在 知识 组 织 方面 
均 采 用 了 分 类 组 织 的 方式 , 依据 研究 主题 建立 专题 知识 库 , 同时 也 选择 地 区 作为 
研究 项 目 分 类 的 依据 。 两 大 智库 均 通 过 技术 手段 开发 了 信息 支持 系统 ,， 并且 都 积 
极 尝试 FETE DERE ES 产 共 享 、 信 息 共 建 等 合作 ， 以 弥补 自身 专业 缺 
陷 ， 同 时 能 减少 数据 见 余 。 
表 3 RAND 与 SWP 知识 库 构 建 情况 对 比 

Table 3 Comparison of knowledge repositories between RAND and SWP 


馆藏 建设 情报 搜集 技术 支持 
内 部 图 书馆 数据 库 项 目 报告 | 人 员 部 门 子 机 构 开发 系统 合作 
55000 本 图 书 、 涉及 内 容 包 括 | 研究 项 目 被 “| 于 1972 年 成 | 设 有 兰 德 欧 | 基于 RITA 语 | 与 美国 联邦 
健康 、 犯 罪 、 | 按照 地 区 、 主 | 立 兰 德 调查 组 | 洲 、 澳 洲 分 | 言 设 计 了 知 | 政府 各 部 门 
134000 份 报告 、 | 安全、 灾害、 | 题 划 分 , 男 有 | SRG, 在 全 球 范 | 部 ， 以 及 亚 | 识 库 专家 系 展 联合 研 
军事 、 网 络 、 | 政策 聚焦 、 热 | 围 内 进行 调查 | 太 政 策 中 ju 帮助 研究 | 究 ， 与 多 国 
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医疗 、 教 育 、 | 专题 研究 活 | 通过 收集 到 的 | 策 中 心 、 俄 BÀ ria 馆 际 互 借 关 
RAND | 4000 张 地 图 ， 以 | 能 源 、 人 口 调 | 动 等 板块。 数据 为 用 户 提 | 罗斯 及 欧 亚 AT 系 ， 满 足 跨 
查 、 劳 动力 、 供 数据 分 析 与 | 中 心 、 全 球 | RaDiUS, 提供 | 地 区 跨 领 域 
及 特殊 形式 的 文 | 就 业 、 收 入 等 WAR: 聘 | 安全 中 心 。 深层 次 的 信 | 的 信息 需 
主题 。 900 多 位 知 息 资源 共享 。| OR. 
件 和 缩微 品 。 名 教授 及 各 领 
域 专家 作为 特 
约 顾问 和 研究 
W 
92000 册 藏 书 、 与 德国 国际 事 | 研究 项 目 被 “| 5 个 按 地 区 划 | 除了 位 于 德 发 了 国际 “| 与 欧洲 其 他 
务 和 地 区 研究 | 按照 地 区 、 主 | 分 的 研究 部 门 | 国 柏林 的 总 | 关系 与 地 区 | 研究 机 构 合 
440 种 杂志 、380 | 信息 网 络 题 划分 ， na 以 及 国际 安全 | HU. T 2009 | 研究 文献 检 | 作 开发 了 针 
(FIV) 协作 ， 完成 项 与 全 球 事务 2 | 年 在 比利时 | 索 系 统 对 国际 关系 
aque. 130 种 报 | FIV 是 基于 12 的 查看 入 。 | 个 部 门 ; 拥有 | 布鲁塞尔 IREON， 提 供 | 和 地 区 研究 
个 德国 专题 而 研究 人 员 73 | 设 办 公 室 ， | 包括 WAO, 的 词 库 
syp | Ate 究 院 构建 的 统 f. 另 专 设 38 | 保障 了 与 北 | PAIS 等 科学 | European 
一 结构 化 、 集 名 情报 与 知识 | 约 和 欧盟 的 | 文献 搜索 服 | Thesaurus, 
成 化 的 公开 访 管理 人 员 负 责 | 活跃 交流 ， 务 和 全 文 链 | 考虑 到 用 户 
问 数 据 库 。 信息 管理 、 图 | 并 与 欧洲 各 | Be. 的 全 球 性 ， 
书馆 、 信 息 网 | 研究 所 和 智 该 词 库 支 持 
络 与 系统 管 库 保 持 联 德 、 英 、 法 、 
理 、 信 息 分 配 | 系 。 意 、 俄 等 9 
等 工作 。 种 语言 。 


2.2 大 数据 时 代 对 智库 信息 组 织 的 挑战 

由 调研 可 以 看 出 ,虽然 当下 全 球 各 大 智库 的 信息 支持 机 制 已 发 展 得 较为 全 面 ， 
但 是 仍 存 在 很 多 不 足 。 一 方面 ， ed tt ele one 
对 独立 的 , 即使 数据 库 对 所 存储 的 信息 有 从 主题 或 其 他 特征 进行 大 致 分 类 , 但 在 
更 细 粒 度 层面 的 数据 上 ， 数 据 之 间 彼 此 独立 ， ean 不 利于 智库 在 进 
行 数据 挖掘 和 数据 分 析 时 对 潜在 知识 的 发 现 。 此 外 , 这 种 数据 相互 独立 的 信息 组 
织 方式 没有 基于 上 下 文 (context-based) 的 联系 ， 缺 乏 语 境 化 和 情景 化 的 知识 
应 用 ， 即 针对 同一 概念 在 不 同情 景 下 的 理解 能 力 较 弱 。 另 一 方面 ,在 以 信息 检索 
系统 形式 组 织 信息 的 智库 中 , 绝 大 部 分 仅仅 标注 了 信息 的 外 延 ,并 没有 针对 信息 
内 容 进 行 更 深层 的 语义 化 标注 , 不 利于 计算 机 对 数据 信息 的 理解 以 及 智库 决策 过 
程 自动 化 的 发 展 , 这 在 大 数据 时 代 智 库 对 国际 形势 响应 速度 要 求 越 来 越 高 的 情况 
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下 显然 已 经 阻碍 到 了 智库 的 决策 产 出 效率 。 为 了 能 够 将 大 数据 中 的 无 意义 数据 加 
工 为 可 支持 决策 研究 的 智能 数据 , 各 种 信息 必须 从 非 结构 化 的 、 彼 此 独立 存在 的 
粗 粒 度数 据 被 加 工 成 结构 化 的 、 计 算 机 可 操作 的 、 相 互 关 联 的 、 具 有 上 下 文 语 境 
的 细 粒 度数 据 。 

全 球 知 名 咨询 公司 麦肯锡 最 早 提出 了 “大 数据 ”时 代 的 到 来 ,大 数据 时 代 各 
种 数字 资源 急剧 增长 ， 逐 渐 成 为 信息 资源 的 主流 。 面 对 大 数据 的 AV 特征， 传统 
的 智库 信息 支持 机 制 已 无 法 高 效 处 理 如 此 海量 的 异 构 数 据 , 如 何 有 效 地 从 纷 杂 的 
数据 中 获取 有 价值 的 信息 , 如何 对 采集 到 的 海量 信息 进行 科学 的 管理 和 组 织 ,并 
以 此 为 用 户 提 供 迅 速 、 准确 的 服务 , 这 就 要 求 新 型 智库 必须 及 时 调整 对 数据 的 采 
集 、 存储 及 组 织 策 略 以 适应 当前 的 大 数据 特征 。 T. Gustafson 和 D. Fink F 2013 
年 提出 “大 数据 价值 链 ” 的 概念 “"， 认 为 每 条 大 数据 价值 链 简化 后 都 至 少 应 由 4 
个 基本 阶段 组 成 : 数据 获取 一 一 数据 存储 一 一 数据 分 析 一 一 数据 应 用 。 智库 作为 
知识 组 织 型 机 构 ， 其 决策 研究 及 决策 产 出 过 程 实际 上 也 是 一 个 知识 增值 的 过 程 。 
基于 此 ， 提 出 大 数据 环境 下 的 智库 数据 价值 链 (如 图 2)， 智 库 数据 价值 链 反 映 
了 智库 决策 研究 及 产 出 的 各 个 阶段 围绕 数据 进行 的 活动 , 而 大 数据 则 为 各 环节 提 
出 了 要 求 。 

与 一 般 依赖 计算 机 自动 化 抽取 、 处 理 并 分 析 大 数据 得 到 结果 的 商业 化 研究 的 
数据 价值 链 不 同 , 智库 数据 价值 链 进行 知识 增值 的 过 程 是 一 个 基于 前 者 对 大 数据 
的 充分 处 理 和 组 织 后 , 作为 决策 研究 的 支持 数据 提供 给 智库 专家 , 与 智库 专家 的 
隐形 知识 共同 作用 最 后 形成 智库 产品 的 过 程 。 在 这 种 数据 驱动 的 决策 过 程 下 ,最 
终 提供 给 智库 专家 的 支撑 数据 的 及 时 性 、 全 面 性 、 准确 性 以 及 数据 组 织 完善 程度 
都 将 直接 影响 到 最 后 智库 产品 的 产 出 效率 和 质量 。 


专家 隐 性 知识 


分 析 处 理 支持 数据 B 


针对 不 同 来 对 搜集 到 的 利用 各 种 算 专家 依据 支 
源 的 原始 数 数据 基于 分 法 及 分 析 工 持 数 据 结合 
据 进行 搜集 类 法 、 主 题 具 对 组 织 后 自身 隐 性 知 
并 按 一 定 规 法 或 本 体 等 的 数据 进行 识 得 出 结论 
则 清洗 方法 进行 组 分 析 或 进行 预测 ， 
织 并 保存 生成 决策 建 
议 等 产品 


图 2 大 数据 环境 下 的 智库 数据 价值 链 


Figure 2 The data value chain of think tanks in the context of big data 


从 智库 数据 价值 链 中 对 各 环节 的 要 求 可 以 看 出 , 大 数据 时 代 对 传统 智库 研究 
的 一 系列 流程 都 产生 了 影响 ， 其 中 最 关键 的 应 是 处 于 中 间 环 节 的 数据 组 织 阶段 。 
作为 承前启后 的 中 间 环 节 , 智库 在 开展 数据 组 织 工作 时 既 要 适应 之 前 智库 从 各 种 
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数据 源 采 集 的 复杂 数据 类 型 , 又 需 为 后 续 进 行 存 储 及 数据 分 析 要 使 用 的 技术 和 工 
具 提 前 做 好 相应 准备 。 毕 上 , 大 数据 下 智库 需要 一 个 能 够 结合 管理 手段 和 信息 技 
术 对 捕获 并 保存 到 的 信息 进行 有 效 组 织 和 管理 的 信息 支持 系统 ， 即 智库 知识 库 。 


3 基于 本 体 的 智库 知识 库 数据 集成 框架 

智库 知识 库 ” (Knowledge Repository) 泛 指 支持 和 服务 于 智库 运作 的 知识 
库 系 统 ， 是 智库 知识 能 力 建设 的 重要 机 制 。 围绕 智库 研究 和 服务 的 决策 领域 ,， 进 
行 相关 知识 内 容 的 收集 、 保 存 、 组 织 和 提供 服务 ， 是 智库 知识 库 的 首要 任务 ， 同 
时 , 发 布 和 传播 智库 自身 产 出 的 决策 咨询 产品 也 是 智库 知识 库 的 重要 功能 .因此 ， 
智库 知识 库 兼 具 领 域 知 识 库 和 机 构 知 识 库 的 双重 属性 和 功能 一 一 既是 智库 正常 
运作 及 决策 产品 产 出 的 重要 信息 文 撑 工具 , 也 是 智库 有 效 管理 并 利用 其 知识 资产 
的 工具 。 

实现 信息 的 语义 化 是 大 数据 下 智库 数据 组 织 环节 的 首要 目标 ,通过 分 析 与 总 
结 相 关 文 献 ”"", 本 文 针 对 智库 知识 库 构 建 了 一 个 基于 决策 支持 本 体 的 数据 集成 
框架 (如 图 3)， 该 框架 依次 按照 数据 资源 一 数据 集 一 文档 一 实体 4 个 层次 对 大 
数据 资源 从 粒度 由 粗 到 细 进 行 描述 和 组 织 , 描绘 了 大 数据 下 不 同 来 源 不 同类 型 的 
数据 信息 经 过 信息 抽取 后 在 智库 知识 库 中 被 进一步 语义 化 处 理 , 最 终 都 转化 为 可 
用 于 支持 决策 研究 的 “智能 数据 ”。 智 能 数据 是 指 通 过 对 海量 数据 进行 处 理 分 析 
后 ， 从 数据 中 提取 出 包含 有 价值 的 信息 和 知识 ， 使 数据 具有 “智能 ”， 相 比 大 数 
据 的 “大 ”而 言 ， 智 能 数据 拥有 更 高 的 数据 价值 ， 更 值得 进行 深入 挖掘 ， 可 通过 
建立 模型 寻求 现 有 问题 的 解决 方案 或 进行 预测 ,“ 啤 酒 + 尿布 ”就 是 一 个 典型 的 智 
能 数据 应 用 案例 。 该 数据 集成 框架 的 信息 处 理 过 程 主要 包含 了 以 下 5 个 阶段 : 信 
息 抽 取 阶 段 、 数 据 存 储 阶 段 、 数 据 准 备 阶段 、 语 义 数据 模型 和 应 用 阶段 。 
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图 3 基于 决策 支持 本 体 的 数据 集成 框架 


Figure 3 Data integration framework based on decision support ontology 

3.1 信息 抽取 阶段 

这 是 智库 对 大 数据 下 信息 资源 进行 语义 化 处 理 过 程 的 第 一 步 , 主要 是 从 适当 
的 信息 源 中 抽取 相关 数据 资料 , 信息 源 可 以 是 从 外 界 自动 抓 取 数据 的 外 部 信息 源 ， 
也 可 以 是 从 内 部 机 构 人 员 处 收集 成 果 的 内 部 信息 源 。 针 对 信息 资源 格式 的 不 同 ， 
可 以 将 抽取 过 程 分 为 结构 化 抽取 和 非 结 构 化 抽取 两 部 分 进行 , 并 分 别 存储 在 不 同 
类 型 的 存储 库 中 。 
3.2 数据 存储 阶段 

将 上 一 阶段 从 智库 机 构 内 部 和 外 部 数据 源 搜集 到 的 数据 进行 保存 。 针 对 数据 
的 类 型 分 为 结构 化 数据 存储 和 非 结 构 化 存储 两 种 方式 , 存储 工具 也 从 传统 的 数据 
库 管理 系统 (DBMS) W MySql. PostgresSQL 等 ， 到 企业 级 数据 仓储 (EDW) 和 大 
规模 并 行 处 理 数 据 库 (MPP〉 如 PADB 和 SAND 等 ， 此 外 HDFS、HBase 这 种 分 布 式 
文件 系统 和 MongoDB、CouchDB 等 NoSQL 数据 库 也 经 常 被 用 于 非 结 构 化 数据 的 存 
储 。 


3.3 数据 准备 阶段 

在 数据 准备 阶段 ,存储 设备 中 的 结构 化 和 非 结 构 化 信息 资源 将 根据 智库 机 构 
的 服务 对 象 和 研究 目标 按照 专题 (topic)、 学 科 领 域 Csubject/domain) 或 项 目 
(project). 等 被 组 织 成 数据 集 的 形式 ， 并 在 各 个 数据 集中 被 进一步 细 分 为 一 个 
个 由 文本 组 成 的 文档 。 

这 一 过 程 中 涉及 到 对 数据 的 清洗 以 使 数据 符合 目标 模式 , 其 中 一 些 典 型 的 处 
理 方法 包括 对 数据 的 规范 化 、 数 据 去 重 、 完 整 性 约束 违规 检查 、 基 于 正则 表达 式 
过 滤 数 据 、 排 序 和 分 组 数据 等 等 。 

3.4 语义 模型 阶段 

语义 数据 模型 是 数据 集成 框架 的 核心 部 分 , 也 是 面向 决策 研究 的 信息 资源 实 
现 语义 化 的 关键 。 

在 语义 数据 模型 中 , 支持 决策 研究 的 本 体 将 首先 被 构建 , 之 后 依据 智库 决策 
研究 涉及 的 具体 领域 进行 专业 领域 本 体 的 构建 , 此 外 还 将 复 用 现 有 的 本 体 和 各 种 
通用 本 体 ， 以 针对 不 断 更 新 的 信息 对 本 体 模 型 进行 扩展 。 最 后 经 过 本 体 间 数据 字 
段 的 映射 相似 数 据 字 段 对 齐 等 一 系列 流程 形成 一 个 面向 决策 研究 过 程 的 通用 的 
语义 数据 模型 。 到 这 一 阶段 为 止 , 智库 知识 库 的 数据 组 织 模型 的 构建 已 基本 完成 ， 
大 数据 下 从 任何 来 源 采 集 到 的 任何 数据 都 可 以 经 过 上 述 一 系列 步骤 实现 面向 决 
策 研究 的 语义 化 , 成 为 一 个 个 相互 关联 的 实例 ， 从 而 更 有 利于 决策 者 挖掘 其 中 的 
潜在 知识 ， 为 决策 制定 提供 信息 支持 。 

3.5 决策 应 用 阶段 

经 过 充分 语义 化 后 的 数据 资源 已 经 成 为 具有 较 高 价值 的 智能 数据 , 可 以 根据 
决策 研究 过 程 中 的 不 同 需 求 从 不 同 角 度 为 决策 者 提供 信息 支持 ,与 目前 传统 的 较 
多 人 工 参 与 的 智库 决 集 信息 支持 机 制 相 比 ,一 方面 该 信息 处 理 框架 利用 各 种 信息 
处 理 技术 和 工具 将 大 数据 作为 原材料 进行 深度 加 工 , 使 其 成 为 能 被 计算 机 自动 处 
理 的 “可 计算 信息 ” 逐步 实现 半自动 直至 上 自动 化 的 决策 过 程 。 另 一 方面 ， 得 益 
于 大 数据 巨大 的 数据 体 量 , 以 及 语义 化 模块 对 数据 资源 的 语义 化 处 理 , 使 得 更 深 
层次 的 潜在 知识 和 知识 关联 得 以 被 挖掘 并 发 现 , 最 终 提供 给 决策 者 的 是 智能 化 的 
决策 文 持 数据 而 非 一 般 数 据 信 息 , 因而 这 种 基于 大 数据 分 析 的 决策 研究 方法 能 够 
得 出 较 传 统 方法 更 科学 、 更 可 靠 也 更 迅速 的 决策 结果 。 


4 决策 支持 本 体 的 构建 

本 体 作为 “共享 概念 模型 的 明确 的 形式 化 规范 说 明 ””， 其 目标 是 获取 、 描 
述 和 表示 相关 领域 的 知识 , 提供 对 该 领域 知识 的 共同 理解 , 确定 领域 内 共同 认可 
的 词汇 ， 并 从 不 同形 式 的 形式 化 模式 上 给 出 了 这 些 词汇 (术语 ) 和 词汇 之 间 相 互 


关系 的 明确 定义 “。 针 对 大 数据 下 智库 在 信息 采集 和 组 织 环 节 面 临 的 海量 非 结构 
化 数据 ,本 文选 择 使 用 本 体 方 法 对 这 些 复杂 类 型 数据 进行 语义 化 处 理 , 实现 本 体 
驱动 的 决策 过 程 。 

面向 决策 过 程 的 决策 支持 本 体 是 智库 知识 库 中 数据 语义 模型 的 核心 组 成 部 
分 ， 决 策 支 持 本 体 的 结构 设计 包含 3 个 阶段 ， 需求 分 析 、 本 体 建 模 和 本 体 实施 。 
4. 1 需求 分 析 

首先 通过 文献 调研 和 网 络 调研 识别 出 围绕 决策 研究 过 程 的 关键 问题 , 对 其 进 
行 分 解 ,提炼 出 实体 类 型 和 关系 类 型 。 在 决策 研究 过 程 中 涉及 的 实体 和 关系 具有 
一 些 重要 的 特征 ， 对 本 体 的 设计 提出 了 相应 的 要 求 ， 主 要 包括 : 

(1) 决策 研究 过 程 中 涉及 的 实体 种 类 较 多 ， 如 事件 、 人 员 、 机 构 、 地 理 位 
置 等 ， 这些 实 体 又 可 能 被 进一步 细 分 。 例 如 某 次 水 资源 污染 事件 中 ,涉及 的 机 构 
类 型 可 能 包括 企业 、 司 法 部 门 、 工 商 部 门 等 。 此 外 ， 事 件 的 关注 者 有 时 也 是 直接 
参与 事件 的 实体 人 员 或 机 构 , 例如 当地 居民 不 仅 关 注 并 投诉 了 该 事件 ,也 是 饮用 
了 污染 水 的 受害 者 。 本 体 需要 具有 容纳 各 种 各 样 相 关 实 体 的 能 

(2) 与 决策 研究 相关 的 实体 和 关系 具有 时 效 性 ， 决 策 议题 、 相 关 事件 、 参 
与 者 和 关系 都 存在 于 特定 的 时 间 内 。 本体 需要 描述 时 间 维 度 ， 以 支持 对 事件 发 展 
过 程 的 表示 和 分 析 。 

(3) 对 每 一 个 实体 和 关系 ， 都 有 大 量 对 应 的 数据 资料 为 其 提供 丰富 的 描述 
和 评论 。 这 些 数 据 资 料 经 过 处 理 整 合 , 可 以 提供 揭示 性 的 定量 或 定性 参考 。 决 策 
本 体 有 必要 将 这 些 基础 性 的 支撑 性 数据 资料 也 包含 在 内 。 

(4). 决策 本 体 应 保留 对 其 他 本 体 的 接口 ， 支 持 对 现 有 本 体 和 新 建 本 体 的 扩 
展 。 例 如 科技 领域 问题 会 用 到 学 科 领 域 本 体 ， 文 撑 性 资料 会 用 到 出 版 物 本 体 。 

本 体 设计 的 整体 要 求 是 在 支持 上 述 分 析 的 同时 ， 逻 辑 模 型 应 尽量 简明 。 
4.2 本 体 建 模 

明确 需求 之 后 , 将 要 选取 合适 的 构建 方法 对 决策 研究 问题 进行 本 体 建 模 。 面 
向 决策 研究 过 程 的 本 体 设计 就 是 根据 决策 支持 本 体 的 构建 目标 建 并 其 概念 模型 
的 过 程 。 构 建 决策 支持 本 体 的 目标 是 建立 基于 决策 支持 信息 的 语义 检索 系统 ,为 
智库 专家 和 政策 研究 人 员 提 供 语义 化 的 信息 查询 方式 , 突破 传统 的 智库 决策 信息 
支持 机 制 ， 提 供 语义 级 的 决策 信息 查询 服务 。 

本 文 根 据 决 俩 研究 问题 的 实际 情况 和 需要 , 选择 国际 上 较为 成 熟 的 七 步 法 作 
为 参照 主体 来 构建 科技 智库 知识 库 中 的 决策 支持 本 体 。 具 体 构 建 步骤 如 下 : 
(1) 确定 本 体 的 范畴 和 目的 

界定 决策 支持 本 体 的 范畴 ， 即 要 明确 如 何 描述 一 个 决策 相关 的 事件 或 资源 ， 


以 及 描述 到 何 种 程度 。 目的 是 希望 能 够 建立 一 个 通用 的 面向 决策 研究 过 程 的 本 体 ， 


用 以 描述 针对 某 决 策 议 题 或 事件 引发 的 问题 ， 以 及 针对 问题 作出 的 回应 、 涉 及 到 
的 项 目 、 相 关 参 与 人 、 机 构 及 其 相互 之 间 的 关系 等 等 。 
(2) 考虑 复 用 现 有 本 体 的 可 能 性 

本 文选 择 复 用 DC 和 ABC 本 体 。 都 柏林 核心 DC 作为 目前 使 用 最 为 广泛 的 本 体 
之 一 , 其 对 资源 基本 情况 的 语义 描述 具有 很 广泛 的 适用 性 和 扩展 性 。 改 变 模型 的 
能 力 使 得 ABC 本 体 适合 于 描述 各 种 各 样 的 实体 和 它们 之 间 的 关系 , 包括 所 有 媒体 
类 型 的 对 象 〈 文 本 、 图 像 、 视 频 、 音 频 、 网 页 和 多 媒体 等 )。 它 还 可 以 用 于 模拟 
诸如 知识 内 容 和 时 间 实 体 的 抽象 概念 , 例如 对 象 发 生 的 性 能 或 生命 周期 事件 。 
此 本 文 最 终 选 择 复 用 DC 和 ABC 本 体 中 的 相关 类 和 属性 ， 同 时 利用 XML schema、 
RDF schema, OWL 等 命名 空间 。 所 有 复 用 的 本 体 如 表 4 所 示 : 

表 4 复 用 本 体 
Table 4 Reused ontologies 

命名 值 


*http:// 
xmlns:dc http://dublincore. org/documents/2012/06/14/dcmi -terms/? 
v=elements” 

h 

1 


ttp://dcpapers. dublincore. org/pubs/article/view/655/ 


xmlns:abc 

65 

“https://www. w3. org/ TR/2014/REC-rdf-syntax-grammar-201 
xmlns:rdf 

40225/" 
xmlns:owl “https://www. w3. org/2002/07/owl#” 


xmlns:xsd “https://www. w3. org/2001/XMLSchematt " 


xmlns:rdfs “https://www. w3. org/TR/2014/REC-rdf-schema-20140225/” 


xmlns:protege | “http://protege. stanford. edu/plugins/owl/protege#” 


(30 列 出 本 体 中 的 重要 术语 
确定 本 体 中 核心 概念 的 具体 表述 词汇 及 其 逻辑 关系 , 最 常见 的 方式 就 是 直接 
抽取 对 应 领域 主题 词 表 和 分 类 表 中 的 主题 词 和 分 类 词 。 
(4) 列 出 关键 实体 和 类 

对 提取 出 的 核心 概念 进行 评估 , 按照 一 定 的 逻辑 规则 进行 分 组 , 设计 合理 的 
类 及 其 层次 结构 。 本 文通 过 参考 相关 研究 的 论文 及 研究 结果 “"，, 结合 决策 研究 
过 程 的 实际 特征 , 最 后 确定 从 问题 类 (Issue)、 决策 产品 类 (Decision output), 
决策 建议 类 (Decision suggestion)、 参 与 者 类 (Participant)、 资 源 类 (Resource) 
这 5 个 核心 方面 构建 决策 本 体 ， 并 据 此 展开 整个 类 层次 结构 。 

问题 类 (Issue) 是 指 由 科技 领域 或 其 他 相关 领域 事件 (Event) 引发 产生 的 
各 种 问题 。 
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决策 产品 类 (Decision output) 是 指 智库 研究 人 员 及 决策 者 针对 产生 的 问 
题 进行 科技 政策 研究 , 最 终 得 到 的 决策 产品 以 及 在 研究 过 程 中 产生 的 各 种 中 间 数 
据 。 具 体 分 类 体系 如 图 4 所 示 。 

决策 建议 类 (Decision suggestion) 是 科技 智库 决策 研究 过 程 的 最 终 产物 ， 
是 决策 产品 类 的 一 个 子 类 ,决策 产品 的 另 一 个 子 类 是 中 间 产 品类 (Mid-product)， 
指 在 决策 者 进行 政策 制订 的 过 程 中 原始 数据 经 参与 研究 的 智库 专家 及 研究 人 员 
的 加 工 生成 一 系列 为 其 提供 思路 的 中 间 数 据 , 这 些 中 间 数 据 对 于 今后 类 似 项 目的 
研究 有 很 大 参考 价值 ， 通 常 也 被 智库 进行 组 织 并 保存 。 

参与 者 类 (Participant) 是 指 所 有 直接 或 间接 参与 到 决策 研究 过 程 中 的 个 
人 (Individual) 或 组 织 (0rganization)， 其 分 类 体系 如 图 5 所 示 。 

VR (Resource) 是 指 在 决策 研究 过 程 中 为 决策 产品 的 生成 提供 支持 的 各 
类 信息 资源 , 包括 各 种 数据 (data), 方法 (method), WA (model), 工具 (tool) 
等 ， 同 时 也 为 科技 问题 的 溯源 和 询 证 (evidence-based) 提供 了 途径 ， 详 细 分 类 
体系 如 图 6 所 示 。 


~ decision suggestion 


Decision output |—1 


t article 


picture 


~ mid-product }——— 
multimedia H audio 
[—] interview video 


图 4 决策 产品 分 类 
Figure 4 The classification of decision output 
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图 5 参与 者 分 类 
Figure 5 The classification of participants 
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unstructured data 


model 


method 


tool 


图 6 资源 分 类 


Figure 6 The classification of resources 


最 终 构建 的 决策 支持 本 体 的 总 体 框架 见 图 7， 整个 本 体 框架 分 成 三 层 : 核心 
层 、 扩 展 层 和 文 撑 层 : 

QD 核心 层 一 一 问题 Issue、 决 策 产 品 Decision output, 

@ 扩 展 层 一 一 参与 者 Participant. 事件 Event、 WMH Project. 任务 Task. 
决策 建议 Decision suggestion、 中 间 产 品 Mid-product 等 ， 

@) 支 撑 层 一 一 资源 Resource、 数 据 Date、 模 型 Model, FYE Method, TA 
Tool 等 。 

分 层 结构 提供 了 简明 的 逻辑 模型 ,使 得 核心 层 、 扩 展 层 和 支撑 层 的 实体 关系 
清晰 有 序 ; 不 同 层 次 存储 的 数据 结构 复杂 度 和 精确 度 不 同 , 允许 系统 根据 查询 需 
求 对 准确 性 和 全 面 性 的 权衡 ， 满 足 个 性 化 的 查询 和 分 析 结 果 。 


" solve 


target propose 


Mid-product 
has art of limitation) 
refer to refer to 


part of Structured Data 


part of 


part of 
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Figure 7 Decision-making ontology of science and technology think tanks 


(5) 分 析 实体 的 属性 
本 体 的 数据 属性 是 表示 类 或 概念 与 值 的 关系 ， 例 如 年 龄 属性 “at age of" 
的 数值 将 代表 某 种 生物 的 具体 年 龄 , 而 本 体 的 对 象 属性 则 表示 类 之 间 的 非 等 级 关 
系 ， 例 如 属性 “trigger” 或 “cause” 可 以 用 以 表示 两 个 类 之 间 的 因果 关系 ， 一 
个 类 触发 了 另 一 个 类 ,恰当 地 定义 数据 属性 和 对 象 属性 可 以 有 效 地 反映 类 间 的 关 
系 。 限 于 篇 幅 仅 展示 核心 层 的 部 分 属性 如 下 表 5: 
表 5 核心 层 类 的 部 分 属性 


Table 5 Parts of properties of classes in the core layer 


类 名 数据 属性 


、 编号 (issue id) ， 名称 (issue name) ， 类 型 (issue type) ， 主 题 
问题 类 Issue u 
(issue subject) , A¥% Cissue content) 


决策 产品 类 编号 Coutput id) ， 名 称 Coutput_name) 


Decision output 


类 名 对 象 属性 
解决 solve 决策 产品 编号 (output id) ， 问 题 编号 (issue id) 


(6) 分 析 属 性 的 约束 

对 属性 进行 必要 的 约束 限制 , 针对 数据 属性 的 约束 条 件 包括 描述 属性 的 值 的 
类 型 (字符 串 、 布 尔 型 、 枚 举 型 等 )、 值 域 、 基 数 〈 单 个 基数 或 多 个 基数 ) 等 特 
性 .例如 将 时 间 属 性 的 Year 字段 的 最 大 值 设 为 2017, 又 比如 人 的 性 别 只 能 从 “ 男 ” 
或 “ 女 ” 两 个 值 中 选择 一 项 等 。 
C7) 创建 实例 

根据 之 前 步骤 已 经 建立 的 概念 模型 创建 具体 的 实例 。 本 文 使 用 protégé4. 3 
选择 一 个 具体 领域 的 问题 进行 部 分 实例 添加 作为 展示 。 此 外 , 也 可 借助 API 工具 
实现 对 实例 的 批量 导入 。 本 文 将 创建 的 本 体 以 OWL 文本 的 格式 保存 在 本 地 计算 机 
中 以 便于 本 体 的 复制 与 备份 ， 并 可 随时 进行 编辑 和 修改 。 


4.3 智库 知识 库 的 实施 过 程 

智库 知识 库 的 总 体 运 作 流 程 见 图 8〈 以 科技 智库 为 例 )。 通 过 API TAME 
虫 工具 可 以 在 互联 网 上 抓 取 所 研究 领域 的 相关 事件 和 问题 内 容 , 同时 收集 用 户 的 
政策 需求 或 政策 方案 , 对 自然 语言 进行 处 理 后 , 再 通过 信息 抽取 等 文本 处 理工 具 
分 析 上 述 内 容 ， 提 取 其 中 的 实体 和 类 型 ， 使 用 上 述 本 体 构建 模型 和 Protégé 等 编 
辑 工 具 进 行 本 体 的 构建 与 数据 维护 , 并 且 可 依据 信息 源 的 性 质 及 数据 特征 引入 外 
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部 本 体 ， 如 在 本 例 中 的 DC 元 数据 和 科技 领域 本 体 。 最 终 将 从 现实 世界 所 采集 的 
内 容 全 部 实现 实体 化 , 形成 相互 具有 语义 关联 的 智能 数据 ,结合 之 前 用 户 的 政策 
需求 或 政策 方案 提供 相应 的 匹配 结果 , 为 政策 制定 者 提供 决策 支持 信息 。 最 终 预 
期 达到 的 目标 是 能 够 基于 智库 采集 处 理 的 大 数据 信息 构建 一 套 面向 决策 研究 过 

程 的 语义 驱动 的 检索 系统 〈 图 9)。 


e 
Content A 
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Event/Issue/ 
Policy Project 
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Document 
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图 8 智库 知识 库 运作 流程 


Figure 8 Knowledge repository operation process of think tanks 


(8) User Interface 


Decision-making Information Retrieval 


text Search 


@ Query © Search results 
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- [s] jm 


Decision-making 
图 9 语义 驱动 的 决策 检索 系统 示例 


ontology 
Figure 9 An example of a semantic-driven decision-making retrieval system 


在 这 套 检索 系统 中 ， 社 会 热点 事件 、 某 个 社会 问题 、 新 闻 报 道 、 研 究 出 版 物 
等 大 数据 下 的 海量 数据 资料 被 智库 抽取 并 进行 自然 语言 处 理 , 再 经 过 智库 知识 库 
的 处 理 并 存储 ， 成 为 智能 数据 。 在 检索 时 ， 用 户 的 查询 需求 同样 先进 行 自然 语言 
处 理 , 之 后 请 求 数据 以 相同 的 方式 被 映射 到 智库 知识 库 中 的 决策 本 体 中 ,继而 匹 
配 之 前 生成 的 实体 化 数据 , 返回 给 用 户 基于 智能 数据 的 检索 结果 , 这 种 基于 语义 
驱动 和 智能 数据 的 检索 系统 相 比 传统 智库 在 决策 研究 中 的 资料 查找 和 收集 方式 ， 
能 够 得 到 更 为 全 面 、 更 为 科学 、 相 互 关 联 的 检索 结果 ， 概 括 来 讲 就 是 基于 上 下 文 
情境 (context based) 的 结果 , 这 种 检索 结果 可 以 更 容易 地 进行 潜在 知识 挖掘 ， 
带 有 情境 之 后 也 更 方便 被 直接 投入 决策 应 用 。 例 如 ， 对 “和 雾 才 防 治 ” 相 关 信息 进 
行 检索 , 则 通过 该 语义 驱动 的 决策 检索 系统 , 用 户 将 会 得 到 茶 次 筋 才 发 生 事件 的 
起 因 、 起 止 时 间 、 地 点 、 相 关 人 员 、 相 关机 构 、 相 关 出 版 物 描述 ， 以 及 务 才 防治 
政策 的 相关 研究 机 构 、 研 究 人 员 、 政 策 实 施 情况 、 对 时 间 产 生 的 影响 等 等 一 系列 
音 息 。 由 此 实现 了 一 种 面向 决策 研究 的 、 提 供 上 下 文 情境 的 语义 化 的 检索 机 制 。 
打破 了 传统 的 较 依 赖 人 工 的 智库 决策 信息 支持 机 制 。 


5 总 结 

本 文 主要 调研 了 当前 智库 传统 信息 支持 机 制 及 其 在 大 数据 时 代 背 景 下 受到 
的 挑战 ,从 而 提出 了 一 种 一 般 性 的 语义 化 的 智库 决策 信息 处 理 框架 ,并 依据 该 框 
架设 计 了 科技 智库 知识 库 的 数据 组 织 模式 , 以 期 为 大 数据 下 新 型 智库 的 建设 提出 
参考 借鉴 。 

关于 针对 智库 政策 领域 研究 的 本 体 创建 ,目前 在 国内 的 尝试 还 少 之 又 少 , 后 
续 要 进行 的 工作 还 有 很 多 。 在 不 断 完善 该 智库 决策 信息 处 理 框 架 功 能 并 维护 决策 
本 体 的 同时 ， 本 文 下 一 步 的 研究 工作 将 围绕 决策 本 体 的 本 体 映 射 、 本 体 评 价 、 集 
成 扩展 等 方面 继续 进行 。 
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Abstract: [Purpose/significance] The high level of new types of think tanks cannot be 
separated from the high level information support mechanism. The traditional think tank 
information organization mechanism in the big data era cannot adapt to the current data 
characteristics and decision-making requirements. Constructing the knowledge repository that 
supports the decision-making process is becoming the inevitable trend of the development of think 
tanks. [Method/process] This paper chose foreign think tanks with reference value in 20/5 
Global Go To Think Tank Index Report as the research objective, and summarized several kinds 
of information organization methods which were common in the current think tank by using the 
literature research method and case analysis method. It also analyzed the data value chain and its 
requirements for all aspects of the think tank, and accordingly put forward the necessity of the 
construction of knowledge repository of think tanks. [Result/conclusion] Finally, a general 
knowledge repository framework for decision-making process is proposed, and the knowledge 
organization model in the knowledge repository is constructed by the semantic ontology method. 
In order to provide references for the achievement of the transformation from the semi-automatic 
decision-making process to the automatic one. 
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